Prototypical Contrastive Learning of Unsupervised Representations

https://gyazo.com/bced9edbf537ec3979092f1a139160a0

背景

Instance-wiseな教師なし表現学習 : 加⼯された画像(instance)のペアが同じ元画像に由来するかを識別

Instance-wiseな⼿法における２つの問題点

1- 低次元の特徴だけで識別できるため, 識別はNNにとって簡単なタスク

→ ⾼密度な情報をエンコードしているとは⾔い難い

2- ペア間の類似度が⾼くても, 負例は負例として扱う

→ 負例ペアにおける類似性についての意味情報は獲得できない

(⼤量に負例を扱うと, 類似度が⾼いペアの存在確率が⾼まる)

例えば「犬A」と「犬B」があったとしても, 「犬A」ー「犬B」ペアは負例なので互いに遠ざけてしまう

１つ目の問題点「⾼密度な情報をエンコードしているとは⾔い難い」について

考: 例えば, SIFTでの位置合わせを想起すれば, 割と単純な特徴量だけで識別できちゃうんでしょうね

EMアルゴリズムに基づく損失で学習

Mステップでクラスタに属するような尤度を計算

まとめ: クラスタリングを行うので, 特徴空間がいい感じに整理されるっしょっていう話

https://gyazo.com/a8bca97f4d3f3461e1abf52b2a6f0cc0

https://gyazo.com/07095089b83152ea8c394f5104caca51